info

Googles Project Astra, Veo og Gemini Opgradering: AI Fremskridt i Kampen

Dette er Googles svar på OpenAI.

En generel AI, en AI som virkelig kan bruges dagligt, ville være pinligt at holde en pressekonference om, hvis den ikke er sådan nu.

Tidligt om morgenen den 15. maj begyndte den årlige "Forårsfestival Gala i Teknologiverdenen" Google I/O Udviklerkonference officielt. Hvor mange gange blev kunstig intelligens nævnt i den 110 minutter lange hovedtale? Google har talt det op:

Ja, AI bliver talt om hvert minut.

Konkurrencen om generativ AI har for nylig nået et nyt højdepunkt, og indholdet af denne I/O-konference drejer sig naturligvis om kunstig intelligens.

"For et år siden på denne scene delte vi først vores planer for den native multimodale store model, Gemini. Det markerede den nye generation af I/O," sagde Googles CEO Sundar Pichai. "I dag håber vi, at alle kan drage fordel af Geminis teknologi. Disse banebrydende funktioner vil trænge ind i søgning, billeder, produktivitetsværktøjer, Android-systemer og mange andre aspekter."

I øjeblikket er både 1.5 Pro og 1.5 Flash tilgængelige til offentlig forhåndsvisning og tilbyder et kontekstvindue på 1 million tokens i Google AI Studio og Vertex AI. Nu tilbyder 1.5 Pro også et kontekstvindue på 2 millioner tokens for udviklere, der bruger API'en og Google Cloud-kunder via en venteliste.

Derudover er Gemini Nano blevet udvidet fra ren tekstinput til billedeinput. Senere i år, med start fra Pixel, vil Google lancere multimodal Gemini Nano. Dette betyder, at mobilbrugere ikke kun kan behandle tekstinput, men også forstå mere kontekstuel information, såsom visuelle elementer, lyd og talesprog.

Gemini-familien byder en ny medlem velkommen: Gemini 1.5 Flash

Den nye 1.5 Flash er blevet optimeret til hastighed og effektivitet.

Ny Generation Open Source Stor Model Gemma 2

I dag har Google også frigivet en række opdateringer til den open source store model Gemma – Gemma 2 er her.

Som introduceret bruger Gemma 2 en ny arkitektur, der sigter mod at opnå banebrydende ydeevne og effektivitet, de nye open source modelparametre er 27B.

Når det kommer til lange videoer, kan Veo producere videoer på 60 sekunder eller endnu længere. Det kan gøre dette gennem en enkelt prompt eller ved at give en række prompts, der tilsammen fortæller en historie. Dette er nøglen til anvendelsen af videogenerationsmodeller i film- og tv-produktion.

Veo er baseret på Googles arbejde inden for visuel indholds generation, herunder Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere og andre.